设计在边缘硬件上运行的深神经网络(DNN)仍然是一个挑战。社区已经采用了标准设计来促进神经网络模型的部署。但是,并不是很强调适应网络拓扑以适合硬件约束。在本文中,我们适应了移动硬件平台MobilenetV2的最广泛使用的架构之一,并研究了更改其拓扑结构并应用后培训后量化的影响。我们讨论了改编和模型在嵌入式硬件平台上进行面部检测的影响。
translated by 谷歌翻译
Video summarization attracts attention for efficient video representation, retrieval, and browsing to ease volume and traffic surge problems. Although video summarization mostly uses the visual channel for compaction, the benefits of audio-visual modeling appeared in recent literature. The information coming from the audio channel can be a result of audio-visual correlation in the video content. In this study, we propose a new audio-visual video summarization framework integrating four ways of audio-visual information fusion with GRU-based and attention-based networks. Furthermore, we investigate a new explainability methodology using audio-visual canonical correlation analysis (CCA) to better understand and explain the role of audio in the video summarization task. Experimental evaluations on the TVSum dataset attain F1 score and Kendall-tau score improvements for the audio-visual video summarization. Furthermore, splitting video content on TVSum and COGNIMUSE datasets based on audio-visual CCA as positively and negatively correlated videos yields a strong performance improvement over the positively correlated videos for audio-only and audio-visual video summarization.
translated by 谷歌翻译
While the Turkish language is listed among low-resource languages, literature on Turkish automatic speech recognition (ASR) is relatively old. In this report, we present our findings on Turkish ASR with speech representation learning using HUBERT. We investigate pre-training HUBERT for Turkish with large-scale data curated from online resources. We pre-train our model using 6,500 hours of speech data from YouTube. The results show that the models are not ready for commercial use since they are not robust against disturbances that typically occur in real-world settings such as variations in accents, slang, background noise and interference. We analyze typical errors and the limitations of the models for use in commercial settings.
translated by 谷歌翻译
通信搜索是刚性点云注册算法中的重要步骤。大多数方法在每个步骤都保持单个对应关系,并逐渐删除错误的通信。但是,建立一对一的对应关系非常困难,尤其是当将两个点云与许多本地功能匹配时。本文提出了一种优化方法,该方法在将部分点云与完整点云匹配时保留每个关键点的所有可能对应关系。然后,通过考虑匹配成本,这些不确定的对应关系通过估计的刚性转换逐渐更新。此外,我们提出了一个新的点功能描述符,该描述符衡量本地点云区域之间的相似性。广泛的实验表明,即使在同一类别中与不同对象匹配时,我们的方法也优于最先进的方法(SOTA)方法。值得注意的是,我们的方法在将真实世界的噪声深度图像注册为模板形状时的表现优于SOTA方法。
translated by 谷歌翻译
他们早期阶段的脑转移(BM)的检测可能对癌症患者的结果产生积极影响。我们以前开发了一种在T1加权对比度增强3D磁共振图像(T1C)中检测小BM(直径小于15mm)的框架,以帮助医学专家在这次时间敏感和高赌注任务中。该框架利用使用标记的T1C数据训练的专用卷积神经网络(CNN),其中基本真理BM分段由放射科医师提供。本研究旨在通过嘈杂的基于学生的自我培训策略推进框架,以利用未标记的T1C数据的大语料库(即,没有BM分段或检测的数据)。因此,工作(1)描述了学生和教师CNN架构,(2)提出数据和模型通知机制,(3)在框架的学习BM检测灵敏度中介绍了一种新的伪标记策略分解。最后,它描述了利用这些组件的半监督学习策略。我们通过2倍交叉验证使用标记为217和1247个未标记的T1C考试进行验证。仅使用标记的考试的框架产生了9.23个假阳性90%BM检测灵敏度;然而,使用所引入的学习策略的框架导致了相同的灵敏度水平的假检测(即8.44)减少了〜9%。此外,虽然利用75%和50%标记数据集的实验导致算法性能降级(分别为12.19和13.89误),但随着基于嘈杂的学生的培训策略(分别为10.79和12.37误报),影响不太明显。
translated by 谷歌翻译
在这项研究中,我们提出了一种基于聚类的方法在时间序列数据上,以在大流行早期捕获Covid-19传播模式。我们根据不同地理位置的不同国家的Covid-19早期和柱阶段分析了传播动力学。此外,我们调查监禁政策及其对蔓延的影响。我们发现相同监禁政策的实施表现出不同国家的不同结果。具体而言,由于遵守社会疏远措施,锁定在密集的地区变得不那么有效。在一些国家缺乏测试,联系跟踪和社会意识,迫使人们从自隔离和维持社会距离。具有不健康的生活条件的大型劳营营也有助于根据异国劳动的国家高社区传输。在政府政策和假新闻中的不信任煽动于发达国家和发达国家的传播。大型社交聚会在几乎到处造成快速爆发时发挥着至关重要的作用。虽然一些国家能够通过实施严格和广泛采用的监禁政策来遏制传播,但其他一些其他国家在社会疏远措施和严格的测试能力的帮助下载有传播。在大流行开始的早期和快速的反应是包含传播所必需的,但它并不总是足够的。
translated by 谷歌翻译